بهبود یادگیری تقویتی در محیط های نیمه رویت پذیر با استفاده از شکل دهی کنش ها

پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده فنی
نویسنده فیروزه حجازی
استاد راهنما میرمحسن پدرام
سال انتشار 1393

چکیده

هدف از یادگیری تقویتی انجام دادن کاری و یا رسیدن به هدفی بدون دریافت اطلاعات مستقیم بیرونی است به گونه ای که عامل یادگیرنده به بیشترین سود یا پاداش برسد، این نوع یادگیری، بر اساس پاداش ها و تنبیه ها است. یادگیری تقویتی یکی از رویکردهایی است که برای حل مسائل تصمیم گیری رویت پذیر و نیمه رویت پذیر مارکوف به کار می رود. حالت نیمه رویت پذیر در واقع زمانی اتفاق می افتد که با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در مشاهده ها، انتقال حالت ها و محیط باشد)، که تصمیم گیری در این محیط دشوارتر از حالت رویت پذیر خواهد بود و پیدا کردن سیاست بهینه در این حالت از پیچیدگی و سربار محاسبه ای بالایی برخوردار خواهد بود. یکی از راه حل های پیشنهاد شده برای یادگیری وظایف پیچیده، روش شکل دهی است. دیدگاه مطرح در این روش آن است که عامل یادگیرنده از کارهای ساده آغاز کند و به تدریج بر پیچیدگی کارها تا حل وظیفه اصلی بیافزاید و این فرآیند یادگیری را ادامه دهد. فرآیند افزایش تدریجی پیچیدگی به صورت قابل ملاحظه ای سختی این گونه مسائل یادگیری را کاهش می دهد. هدف این پایان نامه ارائه روشی مبتنی بر شکل دهی کنش ها به منظور بهبود یادگیری تقویتی در محیط های نیمه رویت پذیر است. نتایج به دست آمده از آزمایش های مختلف نشان دهنده کارآیی توابع پیشنهادی این پایان نامه در محیط های تست مورد بررسی می باشد.

منابع مشابه

بهبود یادگیری تقویتی در محیط های نیمه روئیت پذیربا استفاده از شکل دهی پاداش ها

تا کنون روش های مختلفی برای حل مسائل یادگیری تقویتی ارائه شده است و در طول سال های اخیر تسریع روش های حل، یک مساله چالش برانگیز بوده است. برای حل مسائل یادگیری تقویتی از فرآیند تصمیم گیری مارکوف (mdp) استفاده می شود و تا کنون مطالعات زیادی برای بکاربردن روش های مختلف شکل دهی در این حوزه جهت تسریع فرآیند یادگیری انجام شده است، حال اگر با عدم قطعیت در محیط مواجه باشیم (این عدم قطعیت می تواند در م...

بهبود عملکرد حمله در تیم ربات‌های فوتبالیست با استفاده از یادگیری تقویتی

به‌دلیل عدم امکان پیش‌بینی همه وضعیت‌های ممکن برای عامل‌ها در یک سیستم چندعامله‌ی پویا و گسترده، روش‌های یادگیری ماشین، ابزار مناسبی برای کنترل رفتار عامل‌ها می‌باشد. فوتبال شبیه‌سازی شده ربات‌ها یک مسئله شناخته‌شده برای ارزیابی الگوریتم‌های یادگیری ماشین روی سیستم‌های چندعامله است. در این مقاله الگوریتم یادگیری کیو ـ وی (یکی از الگوریتم‌های معروف یادگیری تقویتی) جهت بهبود عملکرد حمله در تیم رب...

متن کامل

بهبود عملکرد عاملها در جامعه مصنوعی با استفاده از یادگیری تقویتی

چکیده معمولاً در سیستم‌های چندعاملی، تعاملات بین عامل‌ها و تعاملات عامل‌ها با محیط، به صورت انتخاب و اجرای عمل‌هایی از بین مجموعه‌ای محدود از اَعمال مشخص توسط عامل‌ها حاصل می‌شود. بنابراین نوع و میزان پیچیدگی رفتارهای پیدایشی حاصل از این تعاملات نیز به نحوه اجرا و تعداد رفتارهای قابل اجرا توسط عامل‌ها وابسته است. در این پژوهش سعی شد با توسعه مدل کسب و انتقال تجربه و اضافه کردن قابلیت یادگیری به ...

متن کامل

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

Background: Diabetes mellitus increases the risk of central nervous system (CNS) disorders such as stroke, seizures, dementia, and cognitive impairment. Berberine, a natural isoquinolne alkaloid, is reported to exhibit beneficial effect in various neurodegenerative and neuropsychiatric disorders. Moreover astrocytes are proving critical for normal CNS function, and alterations in their activity...

متن کامل

اثر بربرین در تنظیم آستروسیتهای Gfap+ ناحیه هیپوکمپ موشهای صحرایی دیابتی شده با استرپتوزوتوسین

متن کامل

بهبود عملکرد لرزه ای قاب های با مهاربندی واگرا با بکارگیری المان شکل پذیر

پایدار و مقاوم بودن سازه‌ها در برابر زلزله برای جلوگیری از تخریب‌های کلی و یا جزئی و همچنین از دست رفتن سرمایه های مالی و جانی افراد و کشور، از اهمیت زیادی برخوردار می‌باشد. قاب‌های فولادی با مهاربندهای واگرا به عنوان یکی از سیستم های رایج مقاوم در برابر زلزله با شکل پذیری و سختی مناسب دارای آرایش های مختلفی بوده، که یکی از آن شامل اتصال تیر پیوند به ستون می باشد. این نوع اتصال، تا قبل از زلزله...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده فنی

کلمات کلیدی

یادگیری تقویتی فرآیند تصمیم گیری نیمه رویت پذیر مارکوف شکل دهی کنش سیاست

میزبانی شده توسط پلتفرم ابری doprax.com